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基于 改进 SimRank 的 产品 特征 聚 类 研究 ` 
刘 E, R R 


(上 海 理工 大 学 管理 学 院 ， 上 海 200093) 


摘 38. 针对 在 线 用 户 评论 中 产品 特征 的 提取 和 聚 类 问题 进行 了 研究 , 提出 一 种 改进 的 SimRank 算法 ， 将 情感 词 -特征 

对 放 入 二 分 网 中 ， 在 二 分 网 中 使 用 改进 后 的 SimRank 算法 计算 特征 词 之 间 的 相似 度 ; 再 通过 谱 聚 类 算法 对 特征 相似 度 
进行 聚 类 ， 提 取 网 络 产品 的 特征 集合 。 以 某 电 脑 评论 为 例 ， 从 中 提取 情感 词 -特征 对 进行 研究 ， 实 验 结 果 显 示 ， 改 进 后 

的 算法 准确 率 更 高 。 改 进 后 的 特征 相似 度 检 测 方法 可 以 作为 检测 特征 相似 度 的 有 效 方法 。 实 验 采 用 在 线 产品 的 评论 语 

料 ， 实 验 结果 表明 使 用 改进 后 的 SinRank 相似 度 对 特征 词 进行 聚 类 提取 出 特征 更 加 准确 。 
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Product feature clustering based on improved SimRank 


Liu Chen, Duan Junt 
(Business School, University of Shanghai for Science & Technology, Shanghai 200093, China) 


Abstract: This paper studies the extraction and clustering of product features in online user reviews. It proposed an improved 
SimRank algorithm to put the affective word-feature pair into the binary network. And the improved SimRank algorithm is used 
to compute the similarity between the characteristic words. Then the spectral clustering algorithm is adopted to cluster the feature 
similarity. Extracts feature sets for network products. Taking a computer commentary as an example, the paper extracts affective 
word-feature pairs, and the experimental results show that the improved algorithm has higher accuracy. The improved feature 


similarity detection method can be used as an effective method for detecting feature similarity. The experimental results show 


that using the improved Sinrank similarity to extract the feature words is more accurate. 
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前 的 研究 热点 之 一 即 为 如 何 将 有 价值 的 信息 从 海量 的 评论 中 控 
掘 出 来 。 产 品 特征 的 有 效 提 取 ” 是 解决 上 述 诸多 问题 的 关键 方 
随 着 电子 商务 的 迅速 发 展 ， 消 费 者 更 多 的 选择 网 上 购物 。 法 。 通 过 对 网 上 产品 评论 信息 的 挖掘 与 分 析 "”， 用 户 能 清晰 的 
同时 ， 消 费 者 在 购买 产品 后 会 发 表 产品 评论 。 互 联网 上 涌现 出 。 认识 产品 的 特征 ， 从 而 做 出 购买 决策 ， 商 家 也 能 掌握 消费 者 对 
大 量 的 产品 评论 信息 ， 这 些 评 论 对 在 线 产 品 的 各 个 性 能 进行 了 ”产品 的 评价 ， 从 而 对 产品 的 某 些 方面 进行 改进 。 

IS 研究 表明 ,消费 者 会 根据 产品 评论 做 出 是 否 购买 的 决策 。 前 ， 已 有 一 些 学 者 在 产品 评论 的 特征 提取 方面 做 出 了 而 
所 以 ， 产 品评 论 对 消费 者 和 商家 都 至 关 重要 。 但 是 ， 消 费 者 阅 。 76. Hu 和 Liu” 最 开始 使 用 关联 规则 实现 对 产品 特征 的 提取 。 
读 在 线 评论 存在 很 多 阻碍 。 例 如 : a) 评 论 信息 过 载 ,由 于 某 些 产 。 Kamal? 等 人 设计 出 的 相关 规则 对 评论 中 产品 “特征 -情感 对 ” 
品评 论 量 过 大 ， 消 费 者 无 法 一 一 阅读 来 获取 自己 所 需 信息 ， 而 ”进行 抽取 则 是 通过 对 评论 的 语义 和 语言 学 分 析 。 在 商品 特征 自 
大 部 分 消费 者 往往 只 需要 根据 自己 的 需求 了 解 产 品 的 部 分 特征 ， ” 动 提取 方面 , Hu 等 人 “利用 词性 标注 在 评论 中 提取 名 词 或 名 词 
b) 用户 评 论 中 存在 产品 特征 表达 多 样 性 问题 ， 如 “外 观 ” “外 ”性 短语 从 而 生成 事务 集 , 根据 Apriori 算法 提取 候选 特征 外 
R”, “外形” 和 “ 颜 值 ”等 描述 同一 类 特征 ， 消 费 者 很 难 通 过 ”后 使 用 邻近 规则 和 独立 支持 度 规则 过 滤 商 品 特征 。 李 实 等 
读 完 所 有 评论 了 解 到 该 产品 的 全 部 特征 。 商 家 也 无 法 客观 的 提 ” ”参考 Hu 等 人 的 研究 方法 , 结合 中 文 评论 的 语言 特点 , 对 Hu 等 
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供 产 品 的 全 部 特征 ， 尤 其 是 由 消费 者 进行 产品 体验 后 的 特征 ; 人 的 方法 进行 改进 ， 将 改进 后 的 方法 应 用 于 提取 中 文 评论 中 的 
c) 几乎 每 个 消费 者 对 产品 特征 的 关注 点 都 不 同 , 消费 者 很 难 从 ”产品 特征 。 刘 鸿 宇 等 人 “利用 产品 特征 词 与 评价 词 之 间 的 依存 
大 量 的 评论 中 快速 找到 自己 所 需 的 特征 等 。 基 于 众多 问题 ， 目 句法 关系 , 同时 结合 频率 、 点 互信 息 、 名 词 剪 村 三 种 过 滤 技 术 ， 
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从 在 线 评论 中 提取 产品 特 生 


提取 出 名 词 和 名 词 短语 , 去 除 低频 词 及 停止 词 后 


词典 进行 同 


等 人 " 衡 


K-means 方法 实现 商品 特 和 
如 数据 离 群 点 、 
因此 ， 本 文 从 复杂 网 络 的 角度 对 产品 特 和 


些 缺 陷 ， 


ARAS, RK 


E. Jin 等 人 " 则 直接 从 利 浆 型 评论 中 


,利用 WordNet 


后 的 集合 作为 产品 特征 列表 。 张 珠 


量 商 品 特征 之 间 关 


拓 程 度 是 运用 了 语素 和 评价 词 ， 用 
E 归 类 ， 但 K-means 聚 类 方法 具有 一 
输入 次 序 等 会 影响 聚 类 质量 。 


F 进 行 聚 类 分 析 ， 


将 提取 出 的 特征 词 、 情 感 词 分 别 看 作 二 分 网 络 的 顶点 ， 情 感 词 


-特征 对 之 间 的 关系 看 作 二 分 网 络 
础 上 考虑 二 分 网 络 边 


E 


及 加 权 的 相似 度 久 


的 边 。 在 SimRank 算法 的 基 
EE， 分 别 使 用 原 相似 度 计 算 方法 和 改 
进 后 的 方法 对 样本 数据 进行 相似 度 检测 , 并 对 比 准确 率 验证 改 
进 后 方法 的 有 效 性 。 最 后 利用 谱 聚 类 分 别 对 得 至 
E 阵 进行 聚 类 。 实 验 表 明 改 进 的 SimRank 算法 


| 的 相似 性 矩阵 


计算 特征 词 之 间 的 相似 性 更 加 准确 ， 聚 类 效果 更 好 。 


1 ”实验 方法 


1.1 数据 抓 取 及 分 词 标注 
"je du, 在 京东 网 上 抓 取 产品 评论 
外 ， 抓 取 的 评论 保存 到 数据 库 中 。 从 京东 商城 上 抓 取 了 某 电脑 


本 文 使 用 


的 全 部 评论 ， 
首先 对 疏 取 到 的 评论 进行 预 处 理 沁 ， 使 用 哈工大 社会 计算 
的 “语言 技术 平台 (LITP)”。LTP 中 的 


与 信息 检索 研究 中 心 研 发 和 


Python 编 


E11 543 条 。 


中 文 自然 语言 处 理 " 云 服务 高 效 精准 。 
是 将 评论 语句 分 词 
放 在 数据 库 中 某 电 脑 全 部 评论 进行 分 词 和 标注 。 
WEAH n, J 
wp 等 。 然 后 通过 分 忆 
揭示 评论 的 句法 结构 。 依 存 句法 分 析 通 过 识 
、“ 定 状 补 ” 这 些 语 法 成 分 来 分 析 它 们 之 间 的 关系 。 


` i 
“FRR” 


LTP 进行 分 析 的 前 两 步 
及 词性 标注 ， 基 于 此 ， 我 们 使 用 Python 对 存 


感 词 和 特征 词 之 间 主 要 语法 关系 主要 有 : 
(SBV)， 少 数 的 动 宾 关 系 (VOB )、 定 中 关系 (ATT) 以 及 并 


列 关 系 (COO). 


忆 此 ， 基 于 大 量 训练 得 出 的 特 条 
将 预 处 理 后 的 评论 进行 情感 词 -特征 对 提取 


chinaXiy 合 作 期 刊 
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多 数 的 主 谓 关 系 


E 词 和 情感 词 之 间 的 关系 ， 


“。 提 取出 的 情感 


词 - 特 征 对 作为 候选 情感 词 -特征 对 。 部 分 如 表 1 所 示 。 
表 1 依赖 关系 提取 情感 词 - 特 征 对 
特征 词 情感 词 依赖 关系 
配置 不 错 SBV 
外 观 漂亮 ATT 
价格 合理 SBV 
速度 很 快 SBV 


1.3 ”特征 词 相似 度 计 算 


本 文 将 特征 词 与 情感 词 之 间 的 联系 抽象 为 一 个 二 分 网 络 。 


不 同性 质 的 两 类 节点 以 及 这 两 类 节点 之 间 的 连 边 组 成 二 分 网 


络 ， 其 中 同类 节点 之 间 没 有 连 线 。 克 


N 


分 词 标注 后 的 


EAR a， 动 词 v， 副 词 4， 连 词 c， 标 点 符号 
分 词 标注 后 的 各 成 分 之 间 的 依存 语法 关系 
别 评论 语句 中 的 


主要 语法 关系 有 主 谓 关系 (SBV)， 动 宾 关 系 (VOB)， 定 中 关 


系 (AIT)， 状 中 结构 (ADV )， 


所 示 。 


1.2 提取 情感 词 -特征 对 


Ww BR.ESSNH,SMS SE 


将 京东 的 产品 评论 


找 出 特 行 


E 词 和 情感 词 之 


«1 依存 句法 分 析 


息 取 出 来 ,根据 LIP 中 的 


IJR (COO) 等 。 如 图 1 


Bom 


依存 句法 分 析 ， 


则 的 依赖 关系 。 通 过 大 和 


的 训练 发 现 情 


作 一 类 节点 ， 特 征 词 看 做 另 一 类 节点 ， 而 用 依存 句法 分 析出 的 
情感 词 与 特征 词 之 间 的 语法 关系 看 成 情感 词 节点 与 特征 词 节点 
之 间 的 连 边 。 在 情感 词 -特征 对 的 提取 过 程 中 , 情感 词 和 特征 词 


E 这 个 网 络 中 ， 将 情感 词 看 


之 间 的 关系 就 呈现 出 这 样 的 网 络 特征 。 如 图 2 所 示 。 


|2 二 分 网 络 


基于 情感 词 -特征 对 二 分 网 络 , 本 文 使 用 SimRank 相似 度 


算法 计算 特征 词 之 间 的 相似 度 “ .SimRank 相似 度 算法 的 核心 


协同 过 滤 、 孤 立 点 检测 、 近 似 查 


也 相似 。 近 年 来 已 在 信息 
日 于 网 页 排名 、 网 络 图 聚 类 、 


思想 为 : 如 果 两 个 对 象 和 被 其 相似 的 对 象 所 引用 ( 即 它们 有 相 
似 的 入 邻 边 结构 )， 那 么 这 两 个 对 象 
检索 领域 引起 广泛 关注 ， 成 功 应 月 


询 处 理 等 .SimRank 基本 公式 : 


La-b lia) uo) 
SG.) = | TOND 2 È s (1o) a A OL 


0, otherwise 


(1) 


HP: S(a,b) 指 节点 a, 节 点 b 之 间 的 相似 度 , 取 值 范围 是 [0,1]; 


1(a) 为 所 有 指向 结 点 a 的 节点 集合 ， 即 入 邻 点 集合 ; Ji(a) 为 第 


c 


个 指向 a 的 节点 , 即 a 的 第 i 个 入 邻 点 ; s (102), 1/00) ) 为 相连 的 二 
部 图 另 一 个 子 集 节点 之 间 的 相似 度 , 即 相连 的 情感 词 之 间 的 相 
似 度 。 参 数 c 是 阻尼 系数 ，0 < c < 1, 一般 取 c = 0.8。 所 以 ， 节 


点 gq 与 节点 b 之 间 的 相似 


度 就 等 于 所 有 同时 指向 节点 a,b 的 节点 相似 度 之 间 的 平均 值 。 
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于 SimRank 算法 认为 只 要 有 边 相 连 , 即 为 相似 。 如 图 3 所 示 ， 
相似 的 特征 词 都 和 相同 的 情感 词 相 连接 ， 而 非 相似 的 特征 词 也 


会 和 同一 情感 词 连接 ， 但 是 没有 考虑 到 两 个 节点 共同 相连 的 边 
越 多 ， 则 意味 着 节点 相似 度 越 高 。 实 验 数 据 也 证 明 直 接 使 用 


SimRank 算法 计算 的 特征 词 之 间 的 相似 度 无 太 大 差别 ， 所 以 仅 
通过 SimRank 求 出 的 相似 度 ， 对 这 些 数据 进行 聚 类 效果 不 好 。 
所 以 ， 这 里 使 用 改进 的 SimRank 算法 ， 本 文 考虑 加 入 权重 的 思 
想 ， 即 在 算法 中 加 入 二 分 网 边 的 权重 。 


ano Rg 
SA 
OX D 
e 79 
© © 
图 3 情感 词 -特征 对 二 分 网 络 图 
1.4 情感 词 -特征 对 边 权 重 计算 
基于 二 分 网 的 特征 计算 情感 词 -特征 对 边 权重 .首先 统计 出 
二 分 网 边 的 频次 [， 即 情感 词 - 特 
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I(p) = -pı log; pi (4) 
I(p,) = —p; log; p; (5) 
为 了 计算 的 更 加 准确 ， 我 们 用 下 式 作 为 边 的 权重 ， 即 
w = (=p; logi pi — p; logs p2) log; f (6) 
1.5 加 权 特 征 词 相 似 度 计算 
SimRank 相似 度 算法 中 ， 由 于 两 节点 共同 相连 的 边 越 多 意 
味 着 节点 相似 度 越 高 ， 本 文 在 二 分 
网 中 加 入 权重 来 计算 特征 词 之 间 的 相似 度 。 即 改进 的 
SinRank 相似 度 算法 。 加 权 的 SimRank 迭代 算法 ; 


mede i CD 


lI (a)| yel (b)| 
LD Xj Ry (10,100) wa) > aW) 5 Da * b. (gy 


R4 (a, b) = (rora E 
la=b 


KP: wla) 9 a) 表 示 与 a 相连 的 第 i 个 入 邻 点 之 间 边 的 权重 。 
二 分 网 络 中 加 权 的 SimRank 公式 : 


S(4, B) = 


es L ZI s (0), 0;(B)) wO) > 4) w(0(8) > B),A + B (9) 
其 中 : w 为 情感 词 -特征 对 边 的 权重 ; 节点 4 和 B 之 间 的 相似 度 即 
为 4，B 的 所 有 出 度 间 加 权 相 似 度 的 平均 值 。 同 理 ， 在 情感 词 - 


特征 对 的 二 分 网 中 4，B 代 表 特 征 词 ， 特 征 词 A4，B 之 间 的 相似 


征 对 出 现 的 频次 ， 进 而 计算 每 
条 边 的 两 个 端点 出 现 的 概率 : 
Bm (2) 
ial. (35 
其 中 : 万 表 示 该 边 连 接 的 特征 词 出 现 的 频次 , 方 表示 该 边 连接 的 
情感 词 出 现 的 频次 ，p1，p2 分 别 表示 特征 词 和 情感 词 出 现 的 概 


在 此 基础 上 计算 每 条 边 的 特征 词 和 情感 词 两 端点 所 携带 的 
ERSE 


度 等 于 指向 4，B 的 所 有 情感 词 之 间 加 权 相 似 度 的 平均 值 。 


2 ”数据 分 析 


本 文 在 Python 中 编写 爬虫 程序 , 从 京东 商城 中 抓 取 菜 电脑 
的 全 部 在 线 评论 。LTP 语言 云 对 每 条 评论 分 词 标注 ， 提 取 情 感 
词 -特征 对 ， 首 先 根据 SimRank 相似 度 计算 各 特征 词 之 间 的 相 
似 度 。 部 分 结果 如 表 2 所 示 。 


表 2 未 加 权 的 特征 词 相似 度 


SimRank 卡 电脑 屏幕 本 本 外 观 外 形 笔记 本 快递 物流 显卡 
卡 = 0. 003 0. 0046 0. 005 0. 016 0. 04 0. 04 0. 0133 0. 0067 0. 005 
电脑 0. 003 = 0. 0027 0. 003 0. 0036 0. 003 0. 0059 0. 004 0. 0049 0. 003 
屏幕 0. 0046 0. 0027 3 0. 0015 0. 0049 0. 002 0. 0062 0. 0041 0. 0031 0. 0038 
本 本 0. 005 0. 003 0. 0015 x 0.012 0. 0267 0. 002 0. 0067 0. 0033 0. 005 
外 观 0. 016 0. 0036 0. 0049 0. 012 = 0. 0091 0. 032 0. 0107 0. 0107 0. 008 
外 形 0. 04 0. 003 0. 002 0. 0267 0. 0091 - 0. 023 0. 008 0. 008 0. 003 
笔记 本 0. 04 0. 0059 0. 0062 0. 002 0. 032 0. 023 - 0. 0533 0. 0267 0. 02 
快递 0.0133 0. 004 0. 0041 0. 0067 0. 0107 0. 008 0. 0533 = 0. 0267 0. 0133 
物流 0. 0067 0. 0049 0. 0031 0. 0033 0. 0107 0. 008 0. 0267 0. 0267 E 0. 002 
显卡 0. 005 0. 003 0. 0038 0. 005 0. 008 0. 003 0.02 0. 0133 0. 002 s 


从 实验 后 的 相似 度数 据 可 以 看 出 ， 由 于 表 中 数据 的 鉴别 指 
数 D = Pi — Pa 即 最 大 值 与 最 小 的 差 为 0.0513。 并 且 衡量 数据 
离散 程度 的 方差 为 0.00014， 都 非常 小 ， 所 以 未 加 权 的 特征 词 


之 间 的 相似 度 区 分 度 不 高 。 同 类 特征 词 之 间 的 相似 度 与 不 同类 
特征 词 之 间 的 相似 度 差别 不 大 。 
对 表 2 中 的 数据 加 权 后 得 到 表 3 中 的 数据 ， 鉴 


别 指数 为 
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0. 8871， 方 差 为 0.06718。 相 比较 表 2 4 


FP 的 数据 ， 表 3 中 的 数 


征 词 的 相似 度 明 


aXiv 合 作 期 


Chi 
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显 高 于 不 同类 


的 特征 词 , 实验 


ka 


数据 便于 做 后 续 


据 有 了 很 大 的 区 分 度 。 如 表 3 中 加 黑 部 分 的 相似 度 值 ， 同 类 特 。 ”的 聚 类 分 析 。 
表 3 加 权 的 特征 词 相似 度 
WSimRank F 电脑 本 本 外 观 外 形 笔记 本 快递 物流 显卡 
卡 = 0. 1012 0. 2754 0. 1937 0.0110 0. 0173 0. 3337 0.0115 0. 8046 
电脑 0.1012 = 0. 7059 0. 0655 0. 0353 0. 7934 0. 3234 0. 0324 0. 0555 
屏幕 0.0582 0. 1363 0.0071 0.1170 0.0544 0.4755 0.0112 0.0261 0.0390 
本 本 0. 2754 0. 7059 z: 0.0675 0. 0204 0. 6784 0. 3131 0. 0279 0. 0085 
外 观 0. 1937 0. 0655 0. 0675 * 0. 8250 0. 5080 0. 2761 0. 0617 0. 0241 
外 形 0.0110 0. 0353 0. 0204 0. 8250 i 0. 2335 0. 0878 0. 0322 0. 0243 
笔记 本 0.0173 0. 7934 0. 6748 0. 5080 0. 2335 4 0. 2845 0. 0077 0. 1847 
快递 0. 3337 0. 3234 0. 3131 0. 2761 0.0878 0. 2845 = 0. 8942 0. 0402 
物流 0. 0115 0. 0324 0. 0279 0.0617 0. 0322 0.0077 0. 8942 - 0. 0335 
显卡 0. 8046 0. 0555 0. 0390 0. 0085 0. 0241 0. 0243 0. 1847 0. 0402 0. 0335 - 
3 。 基于 相似 度 聚 类 实现 方法 的 总 体 框架 可 以 归纳 为 三 个 主要 步 又 
a) 构建 表示 对 象 集 的 无 向 加 权 图 ， 即 相似 度 和 矩阵 WwW， 同时 
本 文 给 出 了 情感 词 -特征 对 边 的 相似 度 以 后 ,特征 词 种 类 的 。 ”指定 需要 聚 类 的 筷 数 k。 根 据 前 面 加 权 的 SimRank 算法 得 到 特 
划分 就 可 以 转化 为 聚 类 问题 ， 基 于 相似 度 和 矩阵 的 聚 类 算法 进行 征 词 之 间 的 相似 度 和 矩阵 。 所 以 该 聚 类 中 无 需 再 计算 相似 度 和 矩阵 ， 
划分 。 在 复杂 网 络 的 网 络 簇 结构 中 存在 着 同族 节点 之 问 连接 密 。 直接 进行 后 半 部 分 的 步骤 即 可 。 且 该 相似 度 矩 阵 永 具有 如 下 性 
集 ， 不 同 节点 之 间 连 接 稀 琉 的 特征 。 根 据 这 样 的 特征 对 网 络 节 Wü. 和 矩阵 N : N， 为 特征 词 总 数 ， 和 矩阵 对 角 线 的 值 为 0， 抢 阵 为 
点 进行 聚 关 ， 使 得 同类 节点 之 问 连接 密集 ， 不 同 关节 点 之 问 连 — 对 称 矩 阵 ， 即 相似 度 是 无 向 的 。 此 时 ， 谱 奈 类 的 任务 就 是 根据 
ERR. 这 个 相似 度 秆 阵 W， 将 这 NN 个 特征 词 分 成 不 同 的 组 ， 小 
这 里 使 用 谱 隧 类 算法 “对 网 络 节 点 中 的 特征 词 进 行 际 类 组 内 部 的 特征 词 彼此 都 很 像 ， 小 组 之 间 则 不 像 。 通 过 这 个 相似 
中 。 这 里 谱 聚 类 是 根据 特征 词 之 间 的 相似 度 ， 将 它们 分 成 不 同 。 度 矩 陈 得 到 对 应 的 图 分 割 方案 ， 
组 。 根 据 谱 聚 类 的 思想 , 将 特征 词 看 作 项 点 ,特征 词 之 间 的 相 中 计算 对 角 和 矩阵 DCV - N): 
似 度 看 作 带 权 的 边 E， 得 到 一 个 基于 相似 度 的 无 向 加 权 图 Da = BY a0 
G(V, E), 两 点 之 间 有 边 相 连 权 重大 于 零 , JCUDDEBUE ATTE, fE REDI fü£k EREJE REW PIATRA, dERUE 
从 而 将 聚 类 问题 转 为 图 分 割 问题 。 如 图 4 Pra. WRAEDSBETUTU ” 度 矩 阵 ， 即 和 点 i 相连 的 所 有 边 的 权重 之 和 ，wij 指 得 是 第 i 行 对 
一 种 最 优 的 图 分 割 的 方法 ， 该 方法 使 分 割 后 的 子 图 内 部 有 最 大 应 第 /点 的 度数 。 为 了 有 利于 后 面子 图 内 部 的 极 大 化 , 利用 相似 
的 相似 度 ， 子 图 之 间 有 最 小 的 相似 度 。 也 就 是 不 同 组 之 间 相 连 。” 度 矩阵 构造 拉 普 拉 斯 矩阵 L: L = D 上。 再 将 拉 普 拉 斯 
的 边 权重 尽 可 能 低 ， 即 组 间 相 似 度 尽 可 能 低 ， 各 个 组 内 部 相连 矩阵 标准 化 ， 即 归 一 化 ! 和 矩阵 ; 
的 边 权重 尽 可 能 高 ， 即 组 内 相似 度 尽 可 能 高 。 本 aD 
| 为 了 将 L 降 维 ， 计 算 L 和 矩阵 的 K 个 最 小 特征 值 以 及 对 应 的 特 
征 向 量 ， 并 将 K 个 特征 向 量 按 列 排放 ， 形 成 WN.K 的 特征 矩阵 。 
c) 对 这 里 的 特征 矩阵 进行 K-means 聚 类 ， 得 到 的 N 维 向 量 
分 别 对 应 相似 度 矩 阵 W 中 每 一 行 所 代表 的 特征 词 所 属 类 别 ， 也 
即 最 终 聚 类 结果 。 
4 ”实验 结果 与 分 析 


4 聚 类 原理 图 


如 图 5 所 示 ， 横 轴 表 示 聚 类 的 个 数 ， 纵 轴 表 示 每 个 聚 类 包 
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含 的 个 数 ， 


传统 
的 加 权 相 
似 度 矩 阵 
果 要 更 加 
好 。 


即 每 个 杜 聚 类 包含 的 节点 i 数量 。 第 一 张 图 为 聚 类 艇 数 


15 时 未 加 权 SimRank 相似 度 算 阵 聚 类 出 的 结果 ， 
最 后 一 张 图 是 本 文中 改进 


IT 


If] K-means 聚 类 后 的 结果 ， 


第 二 张 图 


似 度 和 矩阵 聚 类 出 的 结果 。 
几乎 无 法 进行 聚 


IT 


图 可 以 看 出 ， 
类 。 相 比 之 下 ， 最 后 一 张 图 芯 


未 加 权 的 相 
RRM 


明显 。 且 和 传统 的 K-means 聚 类 相 比较 聚 类 效果 也 更 


Spectral Clustering number of clusters: 15 


K-means number of clusters: 15 


Spectral Clustering number of clusters: 15 


104 
5] 
0 "i 
0 2 4 


8 


10 , 14 


图 5 相似 度 聚 类 图 


这 里 从 每 一 行 聚 类 分 布 的 结果 中 得 到 聚 类 分 布 情况 ， 电 脑 


特征 聚 类 部 分 结果 如 表 4 所 示 ， 第 一 列表 示 该 簇 的 簇 中 心 ， 


第 


二 列 是 该 秘 的 艇 内 成 员 。 从 表 中 可 看 出 ， 谱 有 聚 类 效果 较 好 且 不 
受 离 群 点 的 影响 ， 如 第 二 篮 中 的 “做 工 ” 可 单独 作为 一 个 复 。 
实验 结果 显示 ， 本 文 所 用 方法 准确 率 较 高 ， 更 加 适合 特征 词 聚 
类 。 
表 4 特征 词 列表 样 例 
fiebat RARA 
卡 显卡 


Shinaxiy 合 作 期 和 
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做 工 

笔记 本 本 本 ， 本 子 ， 电 脑 eee 

外 形 BRE. MON. MEM. MESE nem 

音质 音效 ， 音 ， 音 色 ， 音 响 效果 ， 声 音 

物流 快递 ， 发 货 ， 送 货 eee 

价格 价位 ， 秒 价 ， 价 钱 ， 特 价 …… 

F 字体 ， 文 字 ， 字 号 …… 

手感 质感 ， 和 触感， 塑料 感 ， 印 刷 感 ， 体 验 感 ， 动 
Rere 

性 能 流畅 性 ， 扩 展 性 ， 便 携 性 ， 兼 容 性 …… 

配置 配件 ， 适 配器 ， 配 器 ve 

内 存 容量 ， 大 小 ， 内 存 条 eee 

音响 音箱 

插口 O, HEB ves 

机 器 机 ， 一 款 机 ， 机 子 ， 机 身 ， 真 机 ， 新 机 子 ， 主 
机 ee 

5 ”结束 语 


大 数据 时 代 海 量 的 文本 信息 需要 进行 有 效 的 处 理 ， 
词 挖掘 是 文本 信息 处 理 的 基础 。 针 对 产品 评论 
行 了 研究 。 本 文 首 先 通过 
之 间 的 语 
部 情感 词 -特征 对 ， 然后; 


而 特征 
挖掘 产品 特征 进 


法 关系 ， 


二 分 网 使 ) 


依存 句法 实验 
二 语法 关系 提取 出 某 在 线 产品 评论 的 全 
各 情感 词 - 
SimRank $i SURE 


1 练 出 特征 词 与 情感 记 


基于 


特征 对 放 入 二 分 网 中 ， 
FE 相似 度 ; 为 实验 结果 更 加 准 


确 ,提出 基于 改进 的 SimRank 相似 度 出 发 , 即 加 权 特 征 


基于 商品 特征 


相似 度 的 聚 类 算法 


A, 


相似 度 。 
效 地 对 相近 的 商品 特征 进行 


成 功 降低 了 商品 特征 维度 ， 


Es 


定 基础 


方法 


出 。 实 验 表明 ， 本 文 所 提 
能 有 效 提 高 聚 类 准确 度 。 同 时 
提取 出 的 情感 词 - 特 和 


出 的 改进 后 的 特 生 


为 评论 挖掘 的 进一步 研究 黄 
E 词 相似 度 计算 


也 存在 一 些 不 足 , 如 通过 LTP 


F 对 并 非 完全 ; 


M 


作 带 来 不 便 。 


参考 文献 : 


[1] 


Publishers, 2012: 67-77. 


针对 存在 的 不 足 之 处 ， 将 做 进 


确 , 这 给 后 续 的 相关 研究 工 
步 研 究 。 


Liu Bing. Sentiment analysis and opinion mining [M]. Morgan: Claypool 


Hu Minging, Liu Bing. Mining and summarizing customer reviews [C]// 


Proc of the 10th ACM SIGKDD International Conference on Knowledge 


Discovery and Data Mining. New York: ACM Press, 2004: 168-177. 


Kamal A, Abulaish M, Anwar T. Mining feature-opinion pairs and their 


reliability scores from web opinion sources [C]// Proc of the 2nd 


International Conference on Web Intelligence, Mining and Semantics. 2012: 


201804.02165v1 


chinaXiv 


录用 稿 
1-7. 
[4] Hu Minging, Liu Bing. Mining opinion features in customer reviews [C]// 


[6] 


[7] 


[9] 


Proc ofthe 19th International Conference on Artifical Intelligence. San Jose: 
AAAI Press 2004: 755-760. 

李 实 ， 叶 强 , 李 一 军 , 等 . 挖 据 中 文 网 络 客户 评论 的 产品 特征 及 情感 倾 
向 D]. 计算 机 应 用 研究 , 2010, 27 (8): 3016-3019. (Li Shi, Ye Qiang, Li 
Yijun, et al. Mining Product Features and Sentiment Orientation from 
Chinese Customer Reviews [J]. Application Research of Computers, 2010, 
27 (8): 3016-3019.) 

NAF, RAH, RR, F. 
信息 学 报 ,2010, 24 (1): 84-88. 


评价 对 象 抽 取 及 其 倾向 性 分 析 D]. PX 


Jin J, Liu Y, Ji P, et al. Understanding big consumer opinion data for market- 
driven product design [J]. International Journal of Production Research, 
2016, 54 (10): 3019-3041. 

KK, RIA, RWE, F. 商品 属性 归 类 技术 研究 [C] /第 六 届 全 国 
舍 息 检索 学 术 会 议论 文集 .2010. 

Shi B, Chang K. Mining Chinese Reviews [C]// Proc of the 6th IEEE 
International Conference on Data Mining. Washington DC: IEEE Computer 


Society, 2006: 585-589. 


ChinaXiv 合 作 期 刊 


刘 E, $: 基于 改进 SimRank 的 产品 特征 聚 类 研究 


[10] Xu H, Zhang F, Wang W. Implicit feature identification in Chinese reviews 
using explicit topic mining model [J]. Knowledge-based systems, 2015, 76 
(5): 166-175. 

[11] Yi J, Nasukawa, Bunescu R, etal. Sentiment analyzer: extracting sentiments 
about a given topic using natural language processing techniques [C]// Proc 
of the 3rd IEEE International Conference on Data Mining. Washington D C: 
IEEE Computer Society, 2003: 427. 

[12] Zhang S, Jia W, Xia Y, et al. Product features extraction and categorization 
in Chinese reviews [C]// Proc of the 6th IEEE International Conference on 
Advanced Information Management and Service. 2010: 324-329. 

[13] Glen J, Widom J. SimRank: a measure of structural-context similarity [C]// 
Proc of the 8th ACM SIGKDD International Conference on Knowledge 
Discovery and Data Mining. New York: ACM Press, 2002: 538-543 

[14] Li S, Hao J. Spectral clustering-based semi-supervised sentiment 
classification [C]// Advanced Data Mining and Applications. Berlin: 
Springer, 2012: 271-283. 

[15] Pang B, Lee L. Opinion mining and sentiment analysis [J]. Foundations and 


Trends in Information Retrieval, 2008, 2 (1//2): 1-135. 


